AI Agents

2025年最佳的 60 个AI Agents工具

Swarm

Swarm是由OpenAI Solutions团队管理的实验性框架，旨在构建、编排和部署多智能体系统。它通过定义智能体（Agent）和交接（handoffs）的抽象概念，实现了智能体之间的协调和执行。Swarm框架强调轻量级、高可控性和易于测试，适用于需要大量独立功能和指令的场景，允许开发者拥有完全的透明度和对上下文、步骤和工具调用的细粒度控制。Swarm框架目前处于实验阶段，不推荐在生产环境中使用。

LiveKit Agents

LiveKit Agents 是一个端到端框架，它使开发者能够构建能够通过语音、视频和数据通道与用户互动的智能多模态语音助手（AI代理）。它通过集成OpenAI的实时API和LiveKit的WebRTC基础设施，提供了创建语音助手的快速入门指南，包括语音识别（STT）、语言模型（LLM）和文本转语音（TTS）的流水线。此外，它还支持创建语音到语音代理、接听和响应来电、以及代表用户拨打电话的功能。

Genspark Autopilot Agent

Genspark Autopilot Agent

Genspark Autopilot Agent是一个能够自动处理任务的智能代理，它通过模拟用户操作来执行任务，即使在用户关闭页面后也能继续工作。这项技术的核心优势在于其自动化能力，可以显著提高工作效率，减少重复劳动，让用户能够专注于更有创造性和战略性的任务。Genspark Autopilot Agent的背景信息显示，它是为了满足现代工作环境中对自动化和效率提升的需求而开发的。关于价格和定位，产品可能提供不同级别的服务，以满足不同用户的需求。

Windows Agent Arena

Windows Agent Arena

Windows Agent Arena (WAA) 是一个专注于Windows操作系统的可扩展、开源框架，用于测试和开发能够使用语言模型在PC上进行推理、规划和行动的AI代理。它通过模拟真实的Windows环境，允许代理自由操作，并使用与人类用户相同的应用程序、工具和网络浏览器来解决任务。WAA通过Azure实现可扩展性和并行化，能够在短短20分钟内完成完整的基准测试评估。

muAgent

muAgent是一个创新的Agent框架，由知识图谱引擎驱动，支持多Agent编排和协同技术。它利用LLM+EKG（Eventic Knowledge Graph 行业知识承载）技术，结合FunctionCall、CodeInterpreter等，通过画布式拖拽和轻文字编写，实现复杂SOP流程的自动化。muAgent兼容市面上各类Agent框架，具备复杂推理、在线协同、人工交互、知识即用等核心功能。该框架已在蚂蚁集团多个复杂DevOps场景中得到验证。

Claude for Enterprise

Claude For Enterprise

Claude for Enterprise 是一款面向企业级用户的AI助手产品，旨在帮助组织安全地利用内部知识进行协作。该产品提供扩展的500K上下文窗口、更大的使用容量以及原生GitHub集成，使团队能够与Claude一起在完整的代码库上工作。同时，它还包含企业级安全特性，如单点登录(SSO)、基于角色的权限和管理员工具，以帮助保护您的数据和团队。Claude for Enterprise 通过整合企业知识，使专业知识能够在更多项目、决策和团队中得到扩展，从而提高工作效率和质量。

Gems

Gemini是Google推出的AI服务，通过Gems功能，用户可以创建个性化的AI专家，以提供特定领域的专业帮助。这项服务适用于Gemini Advanced, Business和Enterprise用户，支持跨平台使用，并覆盖150多个国家。

Open-LLM-VTuber

Open LLM VTuber

Open-LLM-VTuber 是一个开源项目，旨在通过语音与大型语言模型（LLM）进行交互，具有实时的Live2D面部捕捉和跨平台的长期记忆功能。该项目支持macOS、Windows和Linux平台，允许用户选择不同的语音识别和语音合成后端，以及自定义的长期记忆解决方案。它特别适合希望在不同平台上实现与AI进行自然语言对话的开发者和爱好者。

Agent Q

Agent Q是MultiOn公司研发的新一代AI代理模型，它通过结合搜索、自我批评和强化学习，创建能够规划和自我修复的先进自主网络代理。它通过引导蒙特卡洛树搜索（MCTS）、AI自我批评和直接偏好优化（DPO）算法，解决了传统大型语言模型（LLMs）在动态环境中多步推理任务的挑战，提高了在复杂环境中的成功率。

multi-agent-concierge

Multi Agent Concierge

multi-agent-concierge是一个多代理礼宾系统，它通过多个专门的代理来完成复杂的任务，并通过一个“礼宾”代理来引导用户到正确的代理。这种系统设计用于处理具有相互依赖关系的多个任务，使用数百种工具。该系统展示了如何通过自然语言指令创建代理之间的隐式“链”，并通过“延续”代理来管理这些链，同时使用全局状态来跟踪用户及其当前状态。

agent-service-toolkit

Agent Service Toolkit

agent-service-toolkit是一个用于运行基于LangGraph的AI代理服务的完整工具包，包括LangGraph代理、FastAPI服务、客户端以及Streamlit应用程序，提供了从代理定义到用户界面的完整设置。它利用了LangGraph框架的高度控制能力和丰富的生态系统，支持并发执行、图循环、流式结果等高级功能。

AgentK

AgentK是一个自进化的模块化自代理通用人工智能（AGI）模型，由多个合作的代理组成，能够根据用户的需求构建新的代理来完成任务。它基于LangGraph和LangChain框架构建，具有自我测试和修复的能力，旨在成为最小化的代理和工具集合，以便自我引导并发展自身的智能。

avp_teleoperate

Avp Teleoperate

这是一个开源项目，用于实现人形机器人Unitree H1_2的遥控操作。它利用了Apple Vision Pro技术，允许用户通过虚拟现实环境来控制机器人。该项目在Ubuntu 20.04和Ubuntu 22.04上进行了测试，并且提供了详细的安装和配置指南。该技术的主要优点包括能够提供沉浸式的遥控体验，并且支持在模拟环境中进行测试，为机器人遥控领域提供了新的解决方案。

Agent Zero

Agent Zero是一个高度透明、可读、可理解、可定制和交互式的个人AI框架。它不是为特定任务预编程的，而是设计为通用的个人助手，能够执行命令和代码，与其他代理实例合作，并尽其所能完成任务。它具备持久记忆，能够记住以前的解决方案、代码、事实、指令等，以便在未来更快、更可靠地解决任务。Agent Zero使用操作系统作为工具来完成任务，没有预编程的单一用途工具。相反，它可以编写自己的代码，并使用终端根据需要创建和使用自己的工具。

Agents 2.0

aiwaves-cn/agents 是一个开源框架，专注于数据驱动的自适应语言代理。它提供了一种系统化框架，通过符号学习训练语言代理，灵感来源于用于训练神经网络的连接主义学习过程。该框架实现了反向传播和基于梯度的权重更新，使用基于语言的损失、梯度和权重，支持多代理系统的优化。

llama-agentic-system

Llama Agentic System

Llama-agentic-system是一个基于Llama 3.1模型的系统级代理组件，它能够执行多步骤推理和使用内置工具，如搜索引擎或代码解释器。该系统还强调了安全性评估，通过Llama Guard进行输入和输出过滤，以确保在不同使用场景下的安全需求得到满足。

Composio

Composio是一个为AI代理提供高质量工具和集成的平台，它简化了代理的认证、准确性和可靠性问题，使得开发者能够通过一行代码集成多种工具和框架。它支持100多种工具，覆盖了GitHub、Notion、Linear等90多个平台，提供了包括软件操作、操作系统交互、浏览器功能、搜索、软件开发环境（SWE）以及即席代理数据（RAG）等多种功能。Composio还支持六种不同的认证协议，能够显著提高代理调用工具的准确性。此外，Composio可以作为后端服务嵌入到应用程序中，为所有用户和代理管理认证和集成，保持一致的体验。

Internet of Agents

Internet Of Agents

IoAI (Internet of Agents)是一个智能代理互联框架，旨在通过高度模块化的设计，实现不同智能代理之间的自动化协作。它允许开发者快速集成第三方智能代理，并通过统一的接口进行任务分配和执行。IoA的核心优势在于其灵活性和可扩展性，支持多种应用场景，包括但不限于协作论文写作、基准测试和开放指令数据集。

MacOS Agent

MacOS Agent 是一个基于大型语言模型（LLM）的简单、轻量级解决方案，利用Dify这个AI应用开发平台。该助手使用户，甚至儿童，能够通过自然语言命令轻松控制MacOS，就像与技术专家交谈一样简单。它不仅类似于Siri，还通过支持多轮对话增强了功能，允许用户在任务中保持上下文和连续性。例如，你可以要求助手提供一些文本，然后请求它将该文本转换为Excel或Word文件。

AutoGPT

AutoGPT是一个强大的工具，它允许用户创建和运行智能代理，这些代理可以自动执行各种任务，使生活更轻松。AutoGPT的目标是提供工具，让用户专注于重要的事情。它通过构建和使用AI代理，推动了AI创新的前沿。

Rodel Agent

Rodel Agent 是一款集成了聊天、文本到图像、文本到语音以及机器翻译功能的Windows桌面应用程序。它支持当前主流的AI服务，为用户提供了卓越的桌面AI体验。该产品的主要优点包括强大的集成功能、用户友好的界面以及对主流AI服务的支持，能够显著提高用户的工作效率和创造力。

OmAgent

OmAgent是一个复杂的多模态智能代理系统，致力于利用多模态大型语言模型和其他多模态算法来完成引人入胜的任务。该项目包括一个轻量级的智能代理框架omagent_core，精心设计以应对多模态挑战。OmAgent由三个核心组件构成：Video2RAG、DnCLoop和Rewinder Tool，分别负责长视频理解、复杂问题分解和信息回溯。

xLAM

xLAM是一个由Salesforce AI Research团队开发的基于大型语言模型(Large Language Models, LLMs)的智能代理研究项目。它通过聚合来自不同环境的智能代理轨迹，标准化并统一这些轨迹到一致的格式，以创建一个优化的通用数据加载器，专门用于智能代理的训练。xLAM-v0.1-r是此模型系列的0.1版本，专为研究目的设计，与VLLM和FastChat平台兼容。

Claude Projects

Claude Projects

Claude推出的Projects功能，允许用户创建专属Projects项目机器人，上传项目资料作为知识库，定制化输出内容，提高工作效率。

llama-agents

llama-agents 是一个异步优先的框架，用于构建、迭代和生产化多智能体系统，包括多智能体通信、分布式工具执行、人工在环等。每个智能体被视为一个服务，不断处理传入的任务。智能体从消息队列中拉取和发布消息。系统顶部是控制平面，它跟踪正在进行的任务，网络中的服务，并决定哪个服务应该处理任务的下一步。

Agent-E

Agent-E 是一个基于 AutoGen 代理框架的系统，旨在自动化用户计算机上的操作，目前专注于浏览器内的自动化。它通过自然语言与网页浏览器交互，执行填写表单、搜索和排序电商产品、定位网站内容、管理播放设置、执行网络搜索、管理项目管理平台任务等操作。Agent-E 正在成长中，已经能够处理多样化的任务，但最佳任务是用户自行发掘的。

OpenAgents

OpenAgents是一个开放平台，旨在使用户和开发者能够在日常生活中使用和托管语言代理。该平台已经实现了三种代理：数据分析的Data Agent、集成200+日常工具的Plugins Agent和自动网页浏览的Web Agent。OpenAgents通过优化的Web UI使普通用户能够与代理功能进行交互，同时为开发者和研究人员提供在本地设置上的无缝部署体验，为创新语言代理的构建和现实世界评估提供了基础。

nerve

Nerve是一个可以创建具有状态的代理的LLM工具，用户无需编写代码即可定义和执行复杂任务。它通过动态更新系统提示和在多个推理过程中保持状态，使代理能够规划和逐步执行完成任务所需的操作。Nerve支持任何通过ollama、groq或OpenAI API可访问的模型，具有高度的灵活性和效率，同时注重内存安全。

Agent Mode

Agent Mode是Warp AI的一个特性，它允许用户使用自然语言在终端中完成多步骤工作流程。它能够识别和解释自然语言指令，提供环境特定的指导，并引导用户完成多步骤任务。Agent Mode利用OpenAI的API，但不会存储或保留用户的输入或输出数据。

agentUniverse

agentUniverse 是一个基于大型语言模型的多智能体应用开发框架，提供了构建单一智能体和多智能体协作机制的所有必需组件。通过模式工厂，允许开发者构建和自定义多智能体协作模式，轻松构建多智能体应用，并分享不同技术与业务领域的模式实践。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase